Cuantización de modelos de series temporales como sistemas dinámicos: TQS
TQS mide propagación de errores de cuantificación en series temporales. Permite presupuesto de bits sin calibración. Ideal para baja precisión.
TQS mide propagación de errores de cuantificación en series temporales. Permite presupuesto de bits sin calibración. Ideal para baja precisión.
TWLA permite cuantizar LLMs a pesos ternarios y activaciones de 4 bits, reduciendo el costo de inferencia sin perder precisión.
TileFuse optimiza la inferencia de LLM en NPUs AMD con kernels fusionados de precisión mixta, logrando hasta 2x menor latencia y 64% menos consumo energético.
¿Tu GPU está inactiva? Descubre cómo alimentar tu tarjeta gráfica con trabajo eficiente: aprovecha tensor cores, fusión de kernels y precisión BF16. Aumenta tu rendimiento real.
SpectrumKV optimiza la transferencia de caché KV con precisión mixta por token, reduciendo el TTFT hasta un 62%. ¡Mejora el rendimiento de tus LLM!
Optimiza tus modelos de lenguaje con CMPQ: cuantización de precisión mixta por canal que ahorra memoria y mejora el rendimiento en dispositivos edge.
Descubre cómo un nuevo enfoque de NAS optimiza arquitectura y cuantización en LLM, logrando hasta 1.4x más velocidad y 6% más precisión en tareas de razonamiento. ¡Mejora tus despliegues en edge!
dMX asigna automáticamente el formato de punto flotante óptimo por capa en LLMs, mejorando rendimiento y eficiencia. Descubre cómo esta técnica supera a métodos tradicionales.
SFMP: cuantización mixta sin búsqueda y amigable con hardware para LLMs. Reduce costos y mejora eficiencia.
Descubre QuBLAST, un framework que reduce el tamaño de LLMs hasta un 45% mediante cuantización por bloques y escalado de activaciones, sin perder rendimiento.
Descubre cómo acelerar el entrenamiento de Transformers usando NVIDIA Apex y torch.amp. Guía práctica con benchmarks de FusedAdam, FusedLayerNorm y rendimiento.